# 文件和序列化 文件是长久保存信息的一种数据信息集合。 文件常用操作有: - 打开/关闭: 文件一旦打开,需要关闭操作 - 读写内容: 对文件写入内容或者读取内容 - 查找: 查找文件内某一内容 ## 文件的打开 文件打开方式通常两种,分别是: - open函数 - with语句 ### open函数 - open函数负责打开文件,带有很多参数 - 第一个参数: 必须有,文件的路径和名称 - mode:第二个参数, 表明文件用什么方式打开 - r:以只读方式打开 - w:写方式打开,会覆盖以前的内容 - x:创建方式打开,如文件已经存在,报错 - a:append方式,以追加的方式对文件内容进行写入 - b: binary方式,二进制方式写入 - t: 文本方式打开 - +: 可读写 文件的打开参考一下案例: # 打开文件,用写的方式 # r表示后面字符串内容不需要转义 # f称之为文件句柄, 以后代表这个文件,用它来进行读写 f = open(r"test01.txt", 'w') # 文件打开后必须关闭 f.close() # 此案例说明,以写方式打开文件,默认是如果没有文件,则创建 ### with语句 `with`语句使用的技术是一种成为上下文管理协议的技术(ContextManagementProtocal), 它可以自动判断文件的作用域,自动关闭不再使用的打开的文件句柄, 这样妈妈再也不用担心你忘了 关闭打开后的文件了。 # with语句案例 with open(r"test01.txt", 'r') as f: pass # 下面语句块开始对文件f进行操作 # 在本模块中不需要在使用close关闭文件f ## 文件的读取 文件读取分别为: - readline: 按行读取 - list: 读取成列表 - read: 按字符读取 ### readline `readline`读取一行,知道文件末尾则返回空。 下面案例是一个实际使用的代码段: # with案例 with open(r'test01.txt', 'r') as f: # 按行读取内容 strline = f.readline() # 此结构保证能够完整读取文件知道结束 while strline: print(strline) strline = f.readline() 输出结果是: 假若他日相逢 我将何以贺你 以沉默 以眼泪 ### list `list`负责把文件内的所有内容按行填充一个列表,然后返回。 对文件的打开,可以使用列表`list`直接打开,这样自动把文件的每一行当做列表的元素进行填充,得到一个 列表: # list能用打开的文件作为参数,把文件内每一行内容作为一个元素 with open(r'test01.txt', 'r') as f: # 以打开的文件f作为参数,创建列表 l = list(f) for line in l: print(line) 运行结果如下: 假若他日相逢 我将何以贺你 以沉默 以眼泪 ### read 按字符读取文件内容,参数可以是数字,表示一次读取几个字符,也可以没有,表示读到结尾。 # read是按字符读取文件内容 # 允许输入参数决定读取几个字符,如果没有制定,从当前位置读取到结尾 # 否则,从当前位置读取指定个数字符 with open(r'test01.txt', 'r') as f: strChar = f.read(1) print(len(strChar)) print(strChar) 运行结果如下: 1 假 ### seek 读取指针指的是当前文件读到的地方,如果不指定读取指针,默认是文件的开始的地方。 每次读取,文件都回向后移动相应的长度。 我们也可以通过函数来手动移动文件的读取指针。 `seek`函数的功能是移动文件的读取位置,也叫读取指针。 `seek(offset, whence)`是函数的签名,此处: - from的取值范围: - 0:从文件头开始偏移 - 1:从文件当前位置开始偏移 - 2:从文件末尾开始偏移 - 移动的单位是字节(byte) - 注意一个汉字由若干个字节构成 - 返回文件指针移动后的新的绝地地址(从文件开始出的偏移量) 下面代码是文件指针偏移的案例: # seek案例 # 打开文件后,从第5个字节出开始读取 # 打开读写指针在0处, 即文件的开头 with open(r'test01.txt', 'r') as f: # seek移动单位是字节 f.seek(6, 0) strChar = f.read() print(strChar) 文件运行结果如下: 他日相逢 我将何以贺你 以沉默 以眼泪 关于文件读取的一个小案例: # 关于读取文件的练习 # 打开文件,三个字符一组读出内容,然后显示在屏幕上 # 每读一次,休息一秒钟 # 让程序暂停,可以使用time下的sleep函数 import time with open(r'test01.txt', 'r') as f: # read参数的单位是字符,可以理解成一个汉字就是一个字符 strChar = f.read(3) while strChar: print(strChar) # sleep参数单位是秒 time.sleep(1) strChar = f.read(3) 运行结果如下,请仔细理解结果为什么会这样? 解释以下运行结果,为什么不是每行三个字符 假若他 日相逢 我将 何以贺 你 以 沉默 以眼泪 ### tell `seek`用来移动读写指针, `tell`用来显示读写指针的当前位置。 # tell函数: 用来显示文件读写指针的当前位置 with open(r'test01.txt', 'r') as f: strChar = f.read(3) pos = f.tell() while strChar: print(pos) print(strChar) strChar = f.read(3) pos = f.tell() 以下结果说明`tell`的返回数字的单位是`byte`, `read`是以字符为单位的。 9 假若他 18 日相逢 25 我将 34 何以贺 41 你 以 48 沉默 57 以眼泪 ## 文件的写操作 文件的写操作主要把内容以某种形式写入文件。 - `write(str)`: 把字符串写入文件 - `writeline(str)`: 把字符串按行写入文件 - 两者区别是: - `write`函数参数只能是字符串 - `writerline`参数可以是字符串,也可以是字符序列 `write`具体案例参看下面代码: # write 案例 # 1. 向文件追加一句诗 # a代表追加方式打开 with open(r'test01.txt', 'a') as f: # 注意字符串内含有换行符 f.write("生活不仅有眼前的苟且, \n 还有远方的枸杞") ### writelines 负责向文件写入多行。 # 可以直接写入行, 用writelines # writelines表示写入很多行,参数可以是list格式 # a代表追加方式打开 with open(r'test01.txt', 'a') as f: # 注意字符串内含有换行符 f.writelines("生活不仅有眼前的苟且") f.writelines("还有远方的枸杞") `writelines`写入列表的案例如下: l = ["I", "love", "wangxiaojing"] # a代表追加方式打开 with open(r'test01.txt', 'w') as f: # 注意字符串内含有换行符 f.writelines(l) ## `rb`和 `r`模式的区别 我们使用处理二进制文件时,需要用如下方法 binfile=open(filepath,'rb') # 读二进制文件 binfile=open(filepath,'wb') # 写二进制文件 那么和binfile=open(filepath,'r')的结果到底有何不同呢? 不同之处有两个地方: 1. 使用`r`的时候如果碰到`0x1A`,就会视为文件结束,这就是`EOF`。使用`rb`则不存在这个问题。 即如果你用二进制写入再用文本读出的话,如果其中存在`0X1A`,就只会读出文件的一部分。使用`rb`的时候会一直读到文件末尾。 2. 对于字符串`x='abc\ndef'`,我们可用`len(x`)得到它的长度为7,`\n` 我们称之为换行符,实际上是`0X0A`。当我们用`w`即文本方式写的时候,在`windows` 平台上会自动将`0X0A`变成两个字符`0X0D`,`0X0A`,即文件长度实际上变成8.。 当用`r`文本方式读取时,又自动的转换成原来的换行符。 如果换成`wb`二进制方式来写的话,则会保持一个字符不变,读取时也是原样读取。 所以如果用文本方式写入,用二进制方式读取的话,就要考虑这多出的一个字节了。`0X0D`又称回车符。 linux下不会变。因为linux只使用`0X0A`来表示换行。 ## 持久化-pickle - 序列化(持久化,落地):把程序运行中的信息保存在磁盘上的过程叫序列化,也可以俗称落地 - 反序列化:序列号的逆过程 - pickle: python提供的序列化模块 - pickle.dump: `pickle` 模块中执行序列化功能的函数 - pickle.load: `pickle` 模块中执行反序列化功能的模块 序列化的案例参看以下代码, 需要注意的是,序列化打开文件的方式必须时候用二进制方式写文件打开: # 序列化案例 import pickle age = 19 with open(r'test01.txt', 'wb') as f: # 把变量age序列化写入到文件f pickle.dump(age, f) 反序列化使用`load`,把序列化保存的内容读入程序, 反序列化文件的打开方式需要是二进制的读方式打开: # 反序列化案例 import pickle with open(r'test01.txt', 'rb') as f: # 从文件f中读入变量age age = pickle.load(f) print(age) 下面是`pickle`读写复杂变量类型的案例: # 序列化案例 import pickle a = [19, 'liudana', "i love wangxiaojing", [185, 76]] with open(r'test01.txt', 'wb') as f: pickle.dump(a, f) 相应的读案例如下: with open(r'test01.txt', 'rb') as f: a = pickle.load(f) print(a) 操作结果如下: [19, 'liudana', 'i love wangxiaojing', [185, 76]] ## 持久化-shelve `shelve`也是持久化对象的一个`python`工具。 它的使用方法类似字典,用键值对的方式保存数据,存取方式跟字典也很类似。 使用方式一般是打开关闭文件,然后对打开的文件就可以用类似字典的方式存取。 # 使用shelve创建文件并使用 import shelve # 打开文件 # shv相当于一个字典 shv = shelve.open(r'shv.db') shv['one'] = 1 shv['two'] = 2 shv['three'] = 3 shv.close() 通过以上案例发现,`shelve`自动创建的不仅仅是一个`shv.db`文件,还包括其他格式文件: ```python # shelve读取案例 shv = shelve.open(r'shv.db') try: print(shv['one']) print(shv['threee']) except Exception as e: print("烦死了") finally: shv.close() ### shelve特性 - 不支持多个应用并行写入: 为了解决这个问题,`open`的时候可以使用`flag=r` - `shelve`正常情况下不会等待持久化对象进行任何修改: 解决方法是强制写回,`writeback=True` # shelve 之只读打开 import shelve shv = shelve.open(r'shv.db', flag='r') try: k1 = shv['one'] print(k1) finally: shv.close() 另一个案例: import shelve shv = shelve.open(r'shv.db') try: shv['one'] = {"eins":1, "zwei":2, "drei":3} finally: shv.close() shv = shelve.open(r'shv.db') try: one = shv['one'] print(one) finally: shv.close() `shelve`有时会忘记写回,需要使用强制写回 shv = shelve.open(r'shv.db') try: k1 = shv['one'] print(k1) # 此时,一旦shelve关闭,则内容还是存在于内存中,没有写回数据库 k1["eins"] =100 finally: shv.close() 上面代码相应的读取代码如下: shv = shelve.open(r'shv.db') try: k1 = shv['one'] print(k1) finally: shv.close() 上面代码读取结果如下: {'eins': 1, 'zwei': 2, 'drei': 3} {'eins': 1, 'zwei': 2, 'drei': 3} 如果改为强制写回,则不会造成丢失的问题: # shelve忘记写回,需要使用强制写回 shv = shelve.open(r'shv.db', writeback=True) try: k1 = shv['one'] print(k1) # 此时,一旦shelve关闭,则内容还是存在于内存中,没有写回数据库 k1["eins"] =100 finally: shv.close() 相应的读取代码如下: shv = shelve.open(r'shv.db') try: k1 = shv['one'] print(k1) finally: shv.close() 结果如下: {'eins': 1, 'zwei': 2, 'drei': 3} {'eins': 100, 'zwei': 2, 'drei': 3} `shelve` 也可以使用`with`管理上下文环境: with shelve.open(r'shv.db', writeback=True) as shv: k1 = shv['one'] print(k1) # 此时,一旦shelve关闭,则内容还是存在于内存中,没有写回数据库 k1["eins"] =1000 with shelve.open(r'shv.db') as shv: print(shv['one']) 运行结果如下: {'eins': 100, 'zwei': 2, 'drei': 3} {'eins': 1000, 'zwei': 2, 'drei': 3}